Imaginemos um mundo onde a inteligência artificial não apenas reconhece um pôr do sol, mas sim cria um do nada. Esse é o salto paradigmático em relação aos modelos discriminativos—que se concentram em calcular a probabilidade $p(output|input)$ para rotular dados existentes—para o amplo domínio da IA Generativa. Estamos nos movendo além dos limites do passado para modelar a própria distribuição de dados subjacente.
Definindo o Terreno Arquitetônico
Nossa taxonomia é dominada por três estratégias matemáticas distintas, cada uma oferecendo vantagens únicas para síntese multimodal e síntese de imagens:
- Redes Geradoras Adversariais (GANs): Um duelo de alto risco entre duas redes neurais—o gerador (o falsificador) e o discriminador (o detetive). Essa interação adversarial obriga o gerador a criar conteúdos cada vez mais indistinguíveis.
- Modelos de Difusão: Um processo de encontrar ordem no caos. Esses modelos aprendem ao adicionar e remover ruído de forma iterativa dos dados, eventualmente dominando a capacidade de moldar representações robustas a partir de estáticas puras.
- Transformadores Autoregressivos: Os arquitetos das sequências. Modelos como o Transformador Pré-treinado Gerador (GPT) operam ao prever o próximo token com base no contexto de tudo o que veio antes, criando narrativas e estruturas coerentes de longo alcance.
Sinergia Arquitetônica
Inovações modernas raramente usam um único pilar isoladamente. Sistemas como o Stable Diffusion utilizam um Transformador para entender seu prompt de texto e um Difusão processo para manifestar os pixels visuais, muitas vezes aproveitando as eficiências do espaço latente encontradas em Codificadores Variacionais (VAEs).